摘要。由于其数据驱动的性质,机器学习(ML)模型容易受到从数据中继承的偏差,尤其是在类别和组失衡的分类问题中。类别不平衡(在分类目标中)和群体失衡(在性行为或种族等属性中)可能会破坏ML效用和公平性。尽管类别和组失衡通常是在实际表格数据集中重合的,但有限的方法解决了这种情况。尽管大多数方法都使用过采样技术(例如插值)来降低了处于疾病的不平衡,但合成表格数据代理的最新进步提供了承诺,但尚未充分探索此功能。为此,本文进行了比较分析,以解决合成表格数据生成和各种抽样策略的最先进模型的类别和群体失衡。在四个数据集上进行的实验结果,证明了生成模型对缓解偏置的有效性,从而为朝这个方向进行进一步探索创造了机会。
主要关键词